iT邦幫忙

2025 iThome 鐵人賽

DAY 23
0
AI & Data

AI初學者入門系列 第 23

Day23 多模態檢索(Multimodal RAG)

  • 分享至 

  • xImage
  •  

一、背景

傳統的 RAG 架構主要針對「文字資料」,透過向量化、檢索,再將結果交由模型生成答案。但現實世界的資訊並不僅限於文字。醫療領域有 MRI 影像,法律案件有圖表與影音紀錄,企業知識庫包含簡報、影片。於是,發展出多模態檢索(Multimodal RAG) ,它將 RAG 從「文字世界」拓展到「多模態世界」,能夠同時理解文字、圖像、影音、語音。

二、主要流程

多模態RAG的目標是 讓AI能跨越不同資料型態,進行檢索與整合推理

  1. 多模態輸入(Multimodal Query)
    查詢可能是文字、圖片、語音、影片截圖。
  2. 編碼與嵌入(Embedding & Encoding)
    多模態 RAG 需要將不同模態轉換到統一的嵌入空間。
    常用技術:
    CLIP、ALIGN:對齊文字與圖片向量。
    BLIP、LLaVA:圖文理解與問答。
    Whisper:語音轉文字與特徵向量化。
    VideoCLIP、X-CLIP:影片特徵編碼。
  3. 跨模態檢索(Cross-modal Retrieval)
    透過向量資料庫(如 FAISS、Milvus、Weaviate)存放不同模態的嵌入,讓查詢可跨模態檢索。
  4. 知識融合(Knowledge Fusion)
    系統可能檢索到文字段落、圖片、影片,必須做跨模態整合。
    例如:回答醫療問題時,會同時展示病例摘要(文字)與 MRI 圖像(圖片)。
  5. 生成回應(Response Generation)
    最後透過多模態 LLM(如 GPT-5,或開源 LLaVA、Qwen-VL),將檢索結果轉換為使用者能理解的答案。(回應形式可能是文字、語音合成)

三、現今挑戰

  1. 語意對齊(Semantic Alignment)
    不同模態的嵌入空間難以完全對齊,導致檢索準確度受限
  2. 資源需求
    圖像與影片的 embedding 體積龐大,需高效壓縮與索引
  3. 資料標註不足
    高品質的跨模態標註資料稀缺,影響模型泛化能力
  4. 回應融合
    多模態內容的整合是挑戰,例如「同時描述文字與圖片重點」

未來的 AI 將能跨越模態,成為真正的智慧助理。


上一篇
Day22 GraphRAG
下一篇
Day24 HyDE(Hypothetical Document Embeddings)
系列文
AI初學者入門30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言